18 research outputs found
Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet
Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction
Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet
Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction
A methodology for the semiautomatic annotation of EPEC-RolSem, a basque corpus labeled at predicative level following the PropBank-Verb Net model
In this article we describe the methodology developed for the semiautomatic annotation of EPEC-RolSem, a Basque corpus labeled at predicate level following the PropBank-VerbNet model. The methodology presented is the product of detailed theoretical study of the semantic nature of verbs in Basque and of their similarities and differences with verbs in other languages. As part of the proposed methodology, we are creating a Basque lexicon on the PropBank-VerbNet model that we have named the Basque Verb Index (BVI). Our work thus dovetails the general trend toward building lexicons from tagged corpora that is clear in work conducted for other languages. EPEC-RolSem and BVI are two important resources for the computational semantic processing of Basque; as far as the authors are aware, they are also the first resources of their kind developed for Basque. In addition, each entry in BVI is linked to the corresponding verb-entry in well-known resources like PropBank, VerbNet, WordNet, Levin’s Classification and FrameNet. We have also implemented several automatic processes to aid in creating and annotating the BVI, including processes designed to facilitate the task of manual annotation.Lan honetan, EPEC-RolSem corpusa etiketatzeko jarraitu dugun metodologia deskribatuko dugu. EPEC-RolSem corpusa PropBank-VerbNet ereduari jarraiki predikatu-mailan etiketatutako euskarazko corpusa da. Etiketatze-lana aurrera eramateko euskal aditzen izaera semantikoa aztertu eta ingeleseko aditzekin konparatu dugu, azterketa horren emaitza da lan honetan proposatzen dugun metodologia. Metodologiaren atal bat PropBank-VerbNet eredura sortutako euskal aditzen lexikoiaren osaketa izan da, lexikoi hau Basque Verb Index (BVI) deitu dugu. Gure lanak alor honetan beste hizkuntzetan dagoen joera nagusia jarraitzen du, hau da, etiketatutako corpusetatik lexikoiak sortzea. EPEC-RolSem eta BVI oso baliabide garrantzitsuak dira euskararen semantika konputazionalaren alorrean, izan ere, euskararako sortutako mota honetako lehen baliabideak dira. Honetaz guztiaz gain, BVIko sarrera bakoitza PropBank, VerbNet, WordNet, Levinen sailkapena eta FrameNet bezalako baliabide ezagunekin lotua dago. Hainbat prozesu automatiko inplementatu ditugu EPEC-RolSem corpusaren eskuzko etiketatzea laguntzeko eta baita BVI sortzeko eta osatzeko ere
Corpusen etiketatze linguistikoa
In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study
Corpusen etiketatze linguistikoa
In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos
329 p.En esta tesis se hace una propuesta inicial de las caracterÃsticas léxicas
necesarias para la definición de la subcategorización de un verbo, tomando
como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos
automáticos.
La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer
una buena base para facilitar las diferentes tareas de realizar en otros
niveles lingüÃsticos tales como la sintáxis, la semántica etc; centrándonos
concretamente en las siguientes: desambiguación de casos y funciones, desambiguación
de estructuras sintácticas, y establecimiento de los lÃmites entre las
oraciones.
Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse
su metodologÃa la más adecuada para aplicarla desde una perspectiva computacional,
ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente
coherentes basándose en éstas.
Sin embargo, el trabajo de esta autora no carece de problemas. AsÃ, antes
las inconsistencias detectadas, se ha establecido un proceso de trabajo
propio: se ha definido el concepto de alternancia, se han analizado las
alternancias del trabajo de Levin (1993) para el euskera según dicha definición,
y como conclusión se ha visto necesario definir lo que hemos denominado
valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial.
Y para ello hemos realizado un estudio de 100 verbos vascos basándonos
en corpus reales. En definitiva, la propuesta inicial que se hace en esta
tesis es fruto de la combinación de los tres trabajos: los datos estadÃsticos
proporcinados por las herramientas informáticas, el estudio teórico, y
la casuistica y fenomenologÃa encontrada en el trabajo descriptivo del
corpus.
Junto a ello, proponemos lÃneas de trabajo aplicables en la estracción
de subcaterogrización, asà como pautas a seguir en el estudio de más verbos
Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos
329 p.En esta tesis se hace una propuesta inicial de las caracterÃsticas léxicas
necesarias para la definición de la subcategorización de un verbo, tomando
como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos
automáticos.
La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer
una buena base para facilitar las diferentes tareas de realizar en otros
niveles lingüÃsticos tales como la sintáxis, la semántica etc; centrándonos
concretamente en las siguientes: desambiguación de casos y funciones, desambiguación
de estructuras sintácticas, y establecimiento de los lÃmites entre las
oraciones.
Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse
su metodologÃa la más adecuada para aplicarla desde una perspectiva computacional,
ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente
coherentes basándose en éstas.
Sin embargo, el trabajo de esta autora no carece de problemas. AsÃ, antes
las inconsistencias detectadas, se ha establecido un proceso de trabajo
propio: se ha definido el concepto de alternancia, se han analizado las
alternancias del trabajo de Levin (1993) para el euskera según dicha definición,
y como conclusión se ha visto necesario definir lo que hemos denominado
valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial.
Y para ello hemos realizado un estudio de 100 verbos vascos basándonos
en corpus reales. En definitiva, la propuesta inicial que se hace en esta
tesis es fruto de la combinación de los tres trabajos: los datos estadÃsticos
proporcinados por las herramientas informáticas, el estudio teórico, y
la casuistica y fenomenologÃa encontrada en el trabajo descriptivo del
corpus.
Junto a ello, proponemos lÃneas de trabajo aplicables en la estracción
de subcaterogrización, asà como pautas a seguir en el estudio de más verbos
From dependencies to constituents in the reference corpus for the processing of Basque (EPEC)
En este artÃculo se expone el proceso adoptado para la transformación de un treebank anotado con dependencias a un treebank anotado con constituyentes. En este trabajo se toma en
cuenta primeramente las caracterÃsticas de ambos formalismos, para luego proponer las
correspondientes equivalencias lingüÃsticas. Al final se explica brevemente el desarrollo,
mediante refinamientos de las equivalencias lingüÃsticas, llevado a cabo. La evaluación del
trabajo realizado es satisfactoria ya que el resultado es que en este momento es posible explotar
y trabajar con corpus anotados en los dos formalismos normalmente usados en la tarea de
etiquetado sintáctico. Si las equivalencias lingüÃsticas son iguales, la conversión es expansible a
otros corpus; de lo contrario, habrÃa que volver a definir nuevas equivalencias.In this paper the process for turning a dependency-based corpus to a constituent-
based one is explained. For this purpose, first both the Dependency and the Constituent
formalism are analized and then the corresponding equivalences of linguistic phenomena are
treated. This process has had different phases in which the linguistic equivalences have been
improved. Finally, the evaluation process is briefly explained and, as a result, we get corpora
annotated in the two different formalisms usually proposed for syntactic tagging. If the
linguistic equivalences are the same, the conversion process could be expanded to other corpus;
otherwise, new equivalences should be defined